Text copied to clipboard!

Título

Text copied to clipboard!

Ingeniero de Confiabilidad del Sitio (SRE)

Descripción

Text copied to clipboard!

Estamos buscando un Ingeniero de Confiabilidad del Sitio (SRE) altamente motivado y experimentado para unirse a nuestro equipo de tecnología. El candidato ideal será responsable de garantizar la disponibilidad, escalabilidad y eficiencia de nuestros sistemas y servicios críticos. Como SRE, trabajarás en estrecha colaboración con equipos de desarrollo, operaciones y seguridad para diseñar, implementar y mantener infraestructuras resilientes y automatizadas. El rol requiere una mentalidad orientada a la ingeniería de software aplicada a problemas de infraestructura y operaciones. Deberás identificar cuellos de botella, automatizar tareas repetitivas, implementar soluciones de monitoreo y respuesta ante incidentes, y participar en la mejora continua de nuestros sistemas. Además, serás responsable de establecer y mantener acuerdos de nivel de servicio (SLA), objetivos de nivel de servicio (SLO) y presupuestos de error (error budgets). Tus responsabilidades incluirán la creación de herramientas internas, la implementación de pipelines de CI/CD, la gestión de configuraciones, la supervisión de métricas clave y la respuesta proactiva a incidentes. También colaborarás en revisiones post-mortem para identificar causas raíz y prevenir recurrencias. Este puesto es ideal para alguien con fuertes habilidades técnicas, pasión por la automatización y un enfoque proactivo hacia la confiabilidad del sistema. Buscamos a alguien con experiencia en entornos de nube (como AWS, GCP o Azure), conocimientos sólidos de sistemas Linux, redes, contenedores (Docker, Kubernetes) y lenguajes de programación como Python, Go o Bash. La capacidad de trabajar en equipo, comunicarte eficazmente y adaptarte a un entorno dinámico es esencial para el éxito en este rol.

Responsabilidades

Text copied to clipboard!

Diseñar e implementar soluciones de alta disponibilidad y tolerancia a fallos.
Automatizar tareas operativas repetitivas mediante scripts y herramientas.
Monitorear sistemas y servicios para detectar y resolver problemas proactivamente.
Colaborar con equipos de desarrollo para mejorar la confiabilidad del software.
Gestionar pipelines de integración y entrega continua (CI/CD).
Establecer y mantener métricas de rendimiento, SLA, SLO y presupuestos de error.
Participar en la respuesta a incidentes y realizar análisis post-mortem.
Optimizar el uso de recursos en la infraestructura para mejorar la eficiencia.
Implementar y mantener herramientas de observabilidad como Prometheus, Grafana o ELK.
Documentar procesos, arquitecturas y procedimientos operativos.

Requisitos

Text copied to clipboard!

Título universitario en Ingeniería Informática, Sistemas o campo relacionado.
Experiencia previa como SRE, DevOps o en roles similares.
Conocimientos sólidos de sistemas operativos Linux y redes.
Experiencia con herramientas de automatización como Ansible, Terraform o Puppet.
Dominio de lenguajes de scripting como Python, Bash o Go.
Experiencia con plataformas de nube como AWS, GCP o Azure.
Conocimiento de contenedores y orquestadores como Docker y Kubernetes.
Habilidad para diagnosticar y resolver problemas complejos de sistemas.
Capacidad para trabajar en equipo y comunicarse eficazmente.
Inglés técnico intermedio o avanzado.